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摘 要 : 针对 传统 因果 关系 算法 难以 准确 分 析 含 大 量 噪声 的 非 线 性 数据 的 问题 进行 了 研究 ， 提 出 基于 最 大 信息 传递 
炳 的 因果 关系 建 模 算法 。 首 先 ， 利 用 最 大 信息 系数 对 非 线 性 数据 的 时 序 趋势 间 的 关联 度 进行 检测 ， 弱 化 噪声 对 变量 
间 相 关 性 的 影响 ; 然后 根据 筛选 因子 别 除 弱 相 关 变 量 ， 并 通过 随机 经 验 估 值 计算 强 关联 变量 间 的 传递 焙 ， 以 减少 传 
递 灶 的 计算 量 ; 最 后 ， 传递 炳 确定 因果 关系 方向 ， 形 成 支持 链 路 溯源 的 单 向 因果 网 络 。 利 用 经 典 化 工 过 程 数 据 集 对 
该 算法 进行 测试 分 析 ， 实 验 结 果 表明 ， 相 比 于 现 有 因果 关系 建 模 算 法 ， 该 算法 可 定位 异常 变量 ， 对 12 维 以 上 的 高 维 
数据 建 模 的 稳定 性 高 于 85%， 因 果 关 系 的 准确 率 可 达 83.33%， 实 际 建 模 效果 优 于 对 比 算法 ， 可 用 于 工业 控制 系统 异 
常 检 测定 位 。 
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Abstract: This paper developed a causality modeling algorithm based on maximum information transfer entropy to solve the 
problem that traditional causality algorithms were difficult to accurately analyze non-linear data with a lot of noise. First, used 
the maximum information coefficient to detect the correlation between time series trends of non-linear data. Weaken the effect 
of noise on the correlation between variables. Secondly, eliminated weakly related variables based on screening factors. 
Calculated the transfer entropy between strong correlations using stochastic empirical valuation. Thereby reducing the 


calculation amount of transfer entropy. Finally, transfer entropy determined causal direction. Formed a one-way causal 


he network that supports link traceability. Test analysis of the algorithm using classic chemical process data sets. Test results 
show that, compared to existing algorithms, this algorithm can locate abnormal variables. The stability of this algorithm for 
modeling high-dimensional data of more than 12 dimensions is higher than 85%, and the accuracy rate of causality can reach 


83.33%. The actual modeling effect of this algorithm is better than the comparison algorithms, and it can detect and locate 
industrial control system abnormalities. 
Key words: industrial control system; causality modeling; maximum information transfer entropy; link traceability; anomaly 
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变量 平稳 线性 动态 过 程 提出 了 一 种 有 效 重 构 加 权 格 兰 杰 因果 
网 络 的 系统 方法 。 然 而 ， 传 统 的 格 兰 杰 因果 关系 是 基于 系统 
工业 控制 系统 (industrial control system，ICS) 在 工业 生产 过 程 的 自 回 归 模 型 四 5， 适用 于 线性 多 变量 过 程 ， 对 于 非 线性 
控制 中 的 广泛 应 用 ,加 快 了 生产 自动 化 与 智能 化 的 发 展 进程 ， 因果 关系 不 敏感 。 

也 引发 了 很 多 安全 问题 由。ICS 中 各 器 件 普遍 存在 交错 复杂 贝 叶 斯 网 络 是 研究 非 线性 数据 间 因 果 关 系 的 经 典 方法 之 
的 依赖 关系 ， 使 得 其 物理 过 程 中 设备 节点 之 间 的 相互 影响 变 一 。Zhang Q 等 人 提出 了 一 种 用 于 动态 风险 评估 的 模糊 概 
得 难以 分 析 ， 导致 难以 准 确定 位 异常 。 由 因果 关系 形成 的 因 率 贝 叶 斯 网 络 ， 并 和 藤 入 了 噪声 证 据 过 滤器 ， 以 减少 噪声 数据 
果 图 所 可 以 代表 信息 的 传播 方向 ， 人 允许 分 析 人 员 遵 循 关 系 链 对 算法 的 影响 ， 但 过 滤 噪 声 也 造成 了 一 定 的 信息 损失 ， 并 
路 追踪 异常 源头 6]， 因 此 可 以 使 用 因果 图 反映 ICS 物理 层 设 传统 贝 叶 斯 网 络 更 适用 于 离散 数据 。 为 处 理 连 续 数据 , YANG 
备 间 的 依赖 关系 并 为 高 效 的 安防 提供 理论 指导 Jing 等 人 外 提出 了 基于 PCB (partial correlation-based) 算 法 的 
目前 ， 一 种 典型 的 因果 关 系 研究 方法 是 格 兰 兰 杰 因果 关系 连续 贝 叶 斯 网 络 模型 ， 但 该 模型 对 非 线性 结构 数据 的 因果 分 
(granger ， Ma 工 等 人 多 提 出 了 一 种 基于 神经 网 络 架 ” 析 效 果 不 佳 。 为 将 离散 数据 建 模 扩 展 为 连续 数 居 建 

构 的 格 兰 杰 因果 分 析 方 法 ， 用 于 KPI (key performance 够 挖掘 非 线性 数据 中 的 潜在 关系 ， 兽 千 千 等 人 外 利用 最 大 信 
indicator) ee KathariS 等 人 喇 针 对 多 息 系数 (maximum information coefficient, MIC) 搭 建 基础 关系 
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网 络 框架 , 通过 贪 禁 算 法 对 MIC 构造 的 贝 叶 斯 网 络 结构 进行 ”的 最 大 互信 息 ， 并 将 其 归 一 化 进而 分 析 两 序列 整体 趋势 间 的 
局 部 优化 ， 通 过 整合 局 部 最 优 解 生成 最 终 的 网 络 结构 。 但 该 ” 相关 性 ;随后 计算 MIC 网 络 中 的 强 相 关 关 系 (micij> 太 ) 间 的 
方法 受 限于 贪 禁 算 法 的 局 部 最 优 特性 ， 无 法 保证 每 次 结果 均 。 ”传递 ， 将 具有 较 大 传递 炉 的 方向 视 为 信息 流动 方向 ， 使 不 具 
为 全 局 最 优 ， 导 臻 建 模 结果 不 稳定 。 备 方向 性 的 相关 性 关系 转换 为 单 向 的 因果 关系 ， 如 图 1 所 示 。 


相 较 于 格 兰 杰 因 果 性 ， 传 递 箭 (transfer entropy，TE) 更 加 V1 MIC > th 条 
精确 ， 从 中 得 出 的 因果 关系 图 在 视觉 上 更 易于 解释 00。 Shi ee 
D 等 人 00 针 对 传感器 测量 序列 引入 了 基于 传递 精 TE 的 因果 液体 | 站 位 水 了 
对 策 ， 以 数据 驱动 的 方式 对 其 进行 评估 而 无 须 依赖 基础 动态 
系统 的 模型 。 但 传递 粹 TE 的 计算 复杂 度 高 ， 存 在 效率 不 高 TE v1->L >TE LU->v1 
的 问题 。SuJ 等 人 602 通过 比较 连续 变量 的 相应 阔 值 生成 离散 
报警 序列 ， 降 低 了 传递 粹 TE 的 计算 代价 ， 提 出 了 一 种 基于 V1 
和 专递 炉 TE 和 修正 互信 息 的 混合 方法 检测 变量 之 间 直 接 和 间 毕 液 体 
接 因 果 关 系 ， 但 其 算法 所 得 结果 是 双向 因果 关系 ， 不 能 完成 
限 长 度 的 链 路 溯源 及 异常 定位 ;同时 将 连续 数据 离散 化 为 图 1 相关 性 关系 转换 为 因果 关系 
报警 序列 也 会 损失 一 定 的 原始 信息 。 Fig. 1 Correlation turns into causation 
综 上 所 述 ， 目 前 ， 在 工业 控制 系统 中 进行 因果 关系 建 模 对 于 前 文 归纳 问题 bj)，MITE-CM 算法 以 变量 间 的 时 序 
时 ， 主 要 存在 以 下 几 个 问题 ， 趋势 相关 性 为 关键 特征 , 保留 了 具有 强 时 序 相 关 性 的 MIC 关 
a) 实 际 生产 数据 往往 为 连续 非 线性 且 伴 随 大 量 噪声 ， 离 系 ， 使 得 因果 图 的 基本 框架 不 易 变动 。 此 外 ，MITE-CM 以 传 
散 化 数据 或 滤波 处 理 等 预 处 理 常 以 损失 信息 为 代价 从 而 影响 递 糯 的 规则 判定 因果 关系 的 方向 ， 仅 在 双方 信息 粒 大 小 极为 
E 常 情况 下 建 模 


后 续 精 准 分 析 。 既 能 分 析 连 续 非 线性 数据 又 无 须 过 滤 噪 声 成 ”接近 时 其 所 得 方向 才 有 可 能 改变 ， 确 保 系统 ] 
为 因果 关系 分 析 的 关键 问题 。 结果 差异 性 小 。 换 而 言 之 ， 若 MITE-CM 的 两 次 建 模 结果 出 


b) 含 有 回路 或 结果 不 稳定 的 因果 关系 网 络 ， 不 适用 于 异 现 框架 差异 , 则 系统 出 现 异常 ,细节 将 在 实验 与 分 析 中 详 述 。 
常 点 排查 ， 对 同一 对 象 多 次 建 模 的 结果 差异 较 大 将 给 后 续 分 而 MIC-GA 算法 中 的 贪 禁 策略 常 因 局 部 最 优 解 不 同 而 变更 网 
析 带 来 干扰 、 影 响 结果 准确 性 。 因 此 需要 建 模 后 的 因果 网 络 络 框架 ， 使 得 多 次 实验 结果 的 差异 程度 较 大 ， 为 后 续 的 进 
能 够 形成 单 向 稳定 链 路 的 算法 。 步 分 析 带 来 诸多 干扰 。 与 MIC-GA 算法 的 随机 性 对 比 将 在 稳 

针对 上 述 问 题 ， 本 文 提出 了 基于 最 大 信息 传递 炉 的 因果 定性 实验 中 做 进一步 说 明 。MITE-CM 算法 伪 码 如 下 所 示 。 
关系 建 模 算法 ， 即 MITE-CM (maximum information transfer 算法 ] MITE-CM 算法 
entropy causal modeling)。 本 文 算法 利用 MIC 建立 相关 性 网 输入 : 数据 集 X 
络 框 架 ， 以 获取 在 时 序 趋势 上 具有 强 相关 性 的 连续 非 线 性 数 输出 : 因果 关系 矩阵 E 
据 ， 减 少 噪声 对 计算 信息 粒 的 影响 ， 通 过 传递 箭 TE 反映 强 a) let C be a new N*N matrix. 
相关 变量 间 的 信息 传递 方向 ， 形 成 有 利于 链 路 渊源 的 单 向 无 b) for i1=1toN 
可 路 网 络 ， 并 解决 因果 网 络 结构 不 稳定 的 问题 。 算 法 通过 筛 c) for j=1toN 
选 机 制 过 滤 弱 相关 关系 ， 减 少 传递 粹 TE 部 分 的 计算 量 。 d) if 7] == 1 
1 ， 基于 最 大 信息 传递 精 的 因果 关系 建 模 算法 pF. We 
1.1 MITE-CM 算法 g) cy < MINE(X,,X.j)mic ; /J* MIC 系数 */ 

工业 控制 系统 中 的 复杂 关系 非 单一 的 函数 关系 且 数据 中 h) let E be a new N*N matrix. 
包含 大 量 噪声 , 需要 普 适 性 强 、 和 鲁 棒 性 高 的 算法 。 受 文献 [13] i) for i1=1toN 
启发 ， 本 文 综合 两 种 相关 性 分 析 方 法 ， 同 时 解决 问题 和 问 j) for j=itoN 
题 b)。MITE-CM 利用 MIC 指标 衡量 两 个 变量 并 和 了 之 间 线 k) if |cu|> 态 /* 筛 选 阔 值 */ 
性 或 非 线性 的 关联 程度 。MIC 的 普 适 性 决定 算法 在 样本 量 足 1) Co TECR_ EVM (XX,,len)); 
够 大 时 能 够 捕获 多 种 关联 , 而 非 限 定 于 单一 的 函数 类 型 .MIC /* 计算 传递 焙 TE ， 计 算 传递 焙 所 需 的 概率 密度 由 R_EVM 算法 得 出 */ 
的 公平 性 保证 其 在 样本 量 足 够 大 时 ， 能 为 噪声 程度 相似 的 不 m) if t=0 and tj»w=0 
司 种 相关 关系 给 出 相近 的 系数 。 例 如 ， 对 于 充满 相同 噪声 的 n) ci ， Ci 8 1 
线性 关系 和 正弦 关系 ，MIC 能 给 出 相近 的 相关 系数 。 因 此 无 o) else if fir 二 8 
须 对 全 体 数 据 集 特 别 进行 滤波 等 除 噪 预 处 理 ， 可 直接 计算 原 p) cij<1 1 
台数 据 。 相 比 于 FPBNUI(fuzzy probability Bayesian network) q) else 
等 贝 叶 斯 网 络 方法 ,MITE-CM 算法 允许 直接 处 理 连 续 数 据 ， r) cjit1; 
同时 对 正常 噪声 有 良好 的 鲁 棒 性 ， 可 直接 分 析 ICS 数据 间 复 s) return E; 
杂 多 样 的 关联 情况 ， 可 以 解决 问题 a)。 1.2 R_EVM 算法 
但 由 于 MIC 的 对 称 性 ， 仅 由 MIC 形成 的 相关 性 网 络 不 工业 控制 系统 中 数据 的 真实 概率 分 布 通常 未 知 ， 在 计算 
备 方向 性 。 为 形成 有 向 图 ，MIC-GA 算法 外 利 用 贪 楚 搜索 传递 TE 前 须 近 似 估计 变量 的 概率 分 布 。 相 比 与 传统 概率 
将 MIC 网 络 扩展 为 有 向 因果 图 , 却 未 证 明 其 局 部 最 优 解 即 为 密度 估计 方法 ， 属 于 非 参数 概率 密度 估计 的 经 验 估 值 法 能 处 
系统 实际 因果 关系 ， 并 且 无 法 保证 局 部 最 优 即 为 全 局 最 优 ， 里 任意 形式 的 概率 分 布 且 不 需要 作出 假设 。 本 文 利用 经 验 估 


训 得 准确 性 相对 较 弱 。 传 递 炉 根据 其 不 对 称 性 建立 驱动 和 响 值 法 计算 简单 、 与 总 体 分 布 相关 的 特点 分 析 数 据 整体 趋势 间 
应 间 的 因果 关系 ， 不 需要 系统 模型 机 理 的 先 验 知识 。MITE- ”因果 关系 。 为 减少 计算 量 ， 本 文 将 经 验 估 值 法 改进 为 随机 经 
CM 算法 将 传递 炉 TE 与 MIC 网 络 融 合 得 到 相对 稳定 准确 的 验 估 值 法 R EVM(random empirical valuation method)， 首 先 
因果 关系 。 首 先 对 序列 卫 、 了 进行 网 格 化 以 此 得 出 卫 、 了 之 间 获取 待 测序 列 耻 、 了 的 长 度 工 及 值 域 R， 其 次 将 值 域 R 分 割 
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为 p 个 子 区 间 ; 随后 分 别 抽 取 待 测 
成 新 的 序列 了 、Y";， 最 后 分 别 统计 、 了 7' 中 数据 落 入 各 个 
区 间 中 的 个 数 ， 以 其 占 比 
存储 于 概率 密度 函数 数组 P 中 。 
随机 选取 的 数据 遍及 待 测序 列 的 绝 大 部 分 ，R_EVM 


张 仁 坛 ， 等 : 


序列 ,了 的 len 个 数据 形 


尺 表 该 区 间 的 概率 密度 函数 值 ， 
为 保证 估 值 结果 准确 ， 确 保 
算法 设 


定 len 取 值 不 小 于 输入 序列 长 度 
于 R_EVM 
的 因果 性 ， 对 系统 噪声 不 敏感 ， 同 样 满足 前 文 归 纳 问题 a) 中 


的 一 半 ， 即 len>Z2 。 基 
的 传递 烂 TE 统计 区 间 分 布 探 查 变量 宏观 趋势 间 
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ave 为 非 零 wicv 的 均值 ， 其 计算 公式 如 式 (2) 所 示 。 


ave= 


1Y 之 间 的 MIC 值 大 于 往 选 六 值 也 ， 则 


这 两 个 变量 之 间 的 传递 TE。 算 选 因子 使 MIC 框架 中 保留 


之 间 存 在 一 条 边 ，MITE-CM 算法 随后 计算 


(2) 


,Mic;; #0 


ba mic; } 
n 


了 中 ，n 为 非 零 micv 总 数 。 
若 随 机 变量 又 科 
认为 这 两 个 变 


算法 无 须 过 滤 噪 声 的 要 求 。R_EVM 算法 计算 传递 炉 公 式 中 
部 分 概率 密度 的 伪 码 如 下 : 


化 为 五 类 定 值 
多 样 性 ， 远 多 于 五 种 分 类 的 区 间 数 p 可 捕获 更 多 的 信息 ， 使 
计算 结果 理论 


品 


算法 2 R_EVM 算法 
输入 : 序列 x 和 y, 区 间 数 量 p, 采 样 总 数 len. 
输出 : p(%,y,). 
a) A1 = (X_max - X min) / (2 * p); A2 = (Y_max - Y_min) 
/ (2*p); 
b) pointer[] 人 random(len) ;// 随 机 生成 len 个 下 标 
c) Xt[] XxX(pointer) ; Yt[] 千 Y(pointer) ; 
Y(pointer +1) ; Xti[] OX(pointer +1); 
d) Lx[] Xmint+Al : p : X_max- 人 A 人 1; 
/* 分 割 区 间 , 每 


Ytri[] 二 


Ly[] YmintA2 : 
又 间 间 隔 为 A_ */ 


P : Y_max-A2; 


e) stat=zeros(p, p, 3); /* 三 维 全 零 算 阵 ,统计 数据 在 各 区 
间 的 分 布 情况 */ 

f) for i=1:p 

g) for j=1:p 

h) count 人 0; 

i) for k=1:1len 

j) if (Lx(i)- A1) < xt(k)<(Lx(i)+ A1) 


and (Ly(j)- A2) < Yi(k)<(Ly(j)+ A2) 


k) Count ++ ; 
1) stat(i,j,3) count ; 
m) p(X%,y) = stat(:,:,3)/sum(sum(stat(:,:,3))) ; 


n) return p(X%,y) ; 


由 伪 码 可 知 ， 在 计算 传递 炉 公 式 的 联合 概率 p(%,y) 时 ， 


其 复杂 度 已 经 达到 O(m)。 序 列 区、7 较 短 所 分 区 间 过 多 ， 
导致 计算 效率 不 高 ; 
结果 精度 下 降 。 
0. 
此 时 ， 相 比 于 传统 经 验 估 值 法 ，R_EVM 算法 理论 上 可 减少 


Lxp? 
2 


而 序列 庆 、 了 7' 较 长 所 分 区 间 较 少 ， 易 使 
因此 ， ?与 /en 应 处 于 相同 量 级 ， 即 p/len = 
05。 通 常情 况 下 ， 抽 样 长 度 len = 1000 时 ， 区 间 数 p 50。 


x1.25x105 次 计算 。 相 比 于 BAS-TE 算法 0 


计算 传递 糯 ， 


作 数 据 离散 
原始 数据 的 


R_EVM 中 保留 了 


上 更 为 精确 ， 算 法 准确 性 对 比 将 在 精确 性 实验 


分 析 数 据 的 目的 下 该 随机 性 在 可 接受 范围 内 ， 
稳定 性 实验 中 的 lem/L 取 值 分 析 中 说 明 。 


1 


不 断 
算法 在 计算 传递 炉 TE 前 
过 滤 弱 相关 性 的 变量 ， 
筛选 因子 x 设 为 第 二 位 有 效 数 字 的 计数 单位 ,筛选 阔 值 h 的 


讨论 。 此 外 , R_EVM 存在 一 定 随机 性 , 但 在 面向 整体 分 布 


体 情况 将 在 


.3 筛选 因子 
计算 变量 概率 密度 分 布 的 复杂 度 较 高 ， 随 着 网 络 规模 的 
兽 大 , R_EVM 的 调用 次 数 也 呈现 平方 式 的 增长 。 因此 ， 
通过 由 筛选 因子 x 计算 出 的 阔 值 衣 
再 次 减少 R EVM 的 计算 量 。 本 文 将 


计算 公式 如 式 (1) 所 示 。 


ave 
| 空 xa,ave>1 
th=4- 2 


|[avexa] 


(1) 


,ave<1 


其 中 为 筛选 因子 ; th 为 筛选 阔 值 ; [| 为 四 舍 五 入 取 整 运算 ; 


| 主要 因果 关系 , 同上 
进而 减少 后 续 传 弟 粹 TE 部 分 的 计算 。 


2 ”实验 与 分 析 


时 减少 弱 相 关 性 对 整体 网 络 带 来 的 干扰 ， 


2.1 经 典 化 工 过 程 

| 纳西 - 伊 斯 曼 过 程 (4] (Tennessee-Eastman process, TEP) 
是 经 典 的 化 工 过 程 模型 ， 如 图 2 所 示 ， 它 模拟 了 连续 过 程 所 
面临 的 大 多 数 挑战 下， 被 广泛 应 用 于 工厂 控制 策略 设计 、 多 
变量 控制 、 稳 态 与 动态 优化 、 预 测控 制 、 自 适应 控制 、 非 线性 控 
制 等 领域 的 研究 1%11。 本 文 所 使 用 的 TEP 数据 为 Kaspersky 仿 


真 的 TEP 正常 数据 及 其 攻击 测试 后 的 异常 数据 9。 
COMPRESSOR 
Water| 一 小 人 2 
~ Purge 
> | 
A 和 小 
Feed 出 ble 
二] 一 CONDENSER Vap/Liq 
Se i |======- | SEPARATOR 
E Co | 1 
Feed a [ali | ! es 
1 Water ! 1 
! 1 STRIPPER 
| om | rr i Steam ! 
1 1 Se I 
REACTOR ht Mord 
A&C ES et 
Feed . Q | 
AS 
图 2 田纳西 一 伊 斯 曼 过 程 图 


Fig.2 Tennes 


see—Eastman process diagram 


为 充分 说 明 本 文 算法 对 ICS 物理 过 程 数 据 的 因果 分 析 通 


| 性 及 异常 定位 的 普 适 1 


击 异常 数 


生 , 本 章 分 别 测试 TEP 中 的 DDoS 攻 
居 和 完整 性 攻击 异常 数据 。 两 种 异常 分 别 来 自 TEP 
过 程 中 的 汽 提 塔 模型 和 反应 镀 模 型 ， 如 图 


1 虚线 框 所 示 ， 相 


关 变 量 如 表 1 所 示 ， 实 验 中 的 筛选 阔 值 太 均 为 0.1。 


表 1 攻击 异常 相关 变量 
Tab. 1 Attacks the exception correlation variable 
符号 名 称 符号 名 称 
S4 A+C Feed V1 Stripper Liquid Product Flow 
S10 Sep Underflow V2 Stripper Steam Flow 
S11 Stripper Underflow RT Recator Temperature 
2 Stripper Pressure RF Recator Feed 
了 Stripper Temperature RP Recator Proseeure 
五 Steam Flow RL Recator Level 
L Stripper Level ReF Recycle Flow 
2.2 汽 提 塔 因果 分 析 及 DDoS 攻击 检测 
通过 对 汽 提 塔 变量 进行 计算 得 到 的 因果 关系 网 络 如 图 
3(a) 所 示 。 汽 提 塔 内 部 的 因果 关系 从 控制 阀 站 展开 ， 并 且 与 


汽 提 塔 的 压力 指示 器 P、 


温度 指示 器 T7、 进 料 流 S10 和 液 


Er 


水 平 工 产 生 了 直 


接 因果 关系 。 同 时 ， 压 力 指示 器 P、 温 度 指 


示 器 7 和 汽 提 塔下 滋 流 量 计 F 又 分 别 延 伸 出 各 自 的 因果 关 
系 ， 从 而 形成 了 许多 类 似 “ 产 量 阀 万 一汽 提 塔 内 压力 己 ~ 汽 


提 塔 内 液 位 水 平 L”* 的 级 运 
制 阀 及 、 流 量 S4 和 S77 与 其 他 节点 的 数据 波形 不 
相似 性 (mie ij < 太 )， 因 


此 不 存在 因果 关系 。 


闫 因果 关 系 。 在 系统 正常 运行 时 ， 控 
k 备 明显 


Ba 


符合 模型 正常 运行 时 的 4 


E 产 逻辑 ,算法 因果 建 模具 备 合理 性 。 


本 文 算法 测试 DDoS 攻击 后 一 场 数 据 的 因果 网 络 如 图 


3(b) 所 示 。 


为 与 所 和 


工 存在 直接 


对 比 攻击 前 后 


，S11 从 与 其 他 节点 没有 因果 关系 变 


天 


果 关 系 , 新 增 了 因果 关系 "了 四 一 917” 


录用 定稿 张 仁 坛 ， 等 : 


也 随 之 消失 ， 其 余 的 医 


和 ' 工 二 S11”"， 而 因果 关系 “VI 二 S10” 
果 关 系 保持 不 变 。 由 此 推断 , 主要 异常 节点 为 所、S17 和 了 

节点 $70 为 受 影响 节点 ,由 异常 节点 渊源 可 得 异常 链 路 Track， 
分 析 结 果 如 表 2 所 示 。Kaspersky 数据 集 显 示 ， 节 点 9817 、 工 
和 V1 中 包含 异常 数据 ， 与 推测 结果 一 致 。 说 明 因 果 关 系 的 
变动 可 以 作为 评判 异常 的 标准 之 一 ， 而 本 算法 对 因果 关系 变 
动 的 敏感 性 使 其 能 够 定位 异常 节点 。 


六 


(b) 多 节点 DDoS 攻击 
果 关 系 
Fig.3 Stripper causality 


图 3 


汽 提 塔 因 


基于 最 大 信息 传递 蚁 的 ICS 因果 关系 建 模 


ChinaX 


表 3 反应 镀 异 常情 况 


Tab.3 Reaction tank anomaly 


乍 期 刊 


第 38 卷 第 3 期 


GaXIV 己 1 


集合 节点 元 素 
Abnormal set RT:S4:RF 
Impact_set REF;RP 
new_Track SN 
RP RTDO RF 
综 上 所 述 , 在 TEP 中 使 用 不 同 攻击 后 的 异常 数据 测试 算 
法 ， 实 验 结果 表明 ， 根 据 MITE-CM 算法 在 不 同时 刻 建 立 的 
忆 果 关系 模型 判断 系统 中 的 因果 关系 变更 ， 可 定位 工业 控制 
系统 多 种 异常 节点 。 
3 ”算法 对 比分 析 
将 本 文 算法 实验 结果 分 别 与 MIC-GA(Maximum 


information coefficient - Greedy Algorithm) 算 
TE(Binary Alarm Sequence - Transfer Entropy) 算 法 


FE [9] 、 


法 BAS- 


[和 TE- 


CMI(Transfer Entropy - Conditional Mutual Informatiom) 算 法 P0 
的 实验 结果 进行 对 比 ， 相 关 变 量 如 表 4 所 示 ，MEAS 和 MV 


表 2 汽 提 塔 异常 情况 分 别 表示 变量 类 型 为 测量 变量 和 控制 变量 。 
Tab.2 Stripper abnormal condition 表 4 部 分 TEP 过 程 变 量 
集合 节点 元 素 Tab.4 Partial TEP process variables 
Abnormal set S11;:L: V1 符号 名 称 单位 类 别 
Impact set S10 Stream 4 A+C Feed kscmh MEAS 
VIDSIIVIFPIOLTDSIL; Stream 6 Reactor Feed kscmh MEAS 
bs) Track VITOOLDSIH VFLOSI; Stream 8 Recycle Flow kscmh MEAS 
ey VI7TPIFLVIPFTILVIFLVI Stream 10 Sep Underflow m’/h MEAS 
© 2.3 反应 缸 因 果 分 析 及 异常 溯源 对 照 Stream 11 Stripper Underflow me? 个 MEAS 
一 再 次 对 TEP 中 反应 钒 变量 测试 , 系统 正常 运行 下 反应 久 Valve 1 A Feed Flow % MV 
下 变量 存在 的 因果 关系 ， 结 果 如 图 4(a) 所 示 。 Valve 9 Purge Flow % MV 
level Stripper Level % MEAS 
CP) (Rp) (RT) 3.1 功能 性 分 析 


二 


gez 


本 文 算法 与 BAS-T 


果 近 似 。 实 验 结果 如 


图 


E 算法 叫 的 实验 结果 进行 了 对 比 ， 当 


本 文 算法 的 筛选 阔 值 th 为 0.060 时 ， 结 果 


5 所 示 。 


与 BAS-TE 算法 结 


(a) 无 攻击 (b) 单 进 料 阀 异 常 
图 4 反应 铅 因 果 关 系 
Fig.4 Reaction tank causality Si ns 
算法 得 出 以 D 进 料 阀 为 初始 异常 的 因果 关系 网 络 , 如 图 (a) BAS-TE 结果 (b) 本 算法 结 

4(b) 所 示 。 对 比 攻击 前 后 因果 关系 , 新 增 因果 关系 “S4 > REF” 图 5 因果 关系 对 比 图 
“RT REF”RTRF” 缺失 因果 关系 “4RP 一 RT2“REF 一 Fig.5 Causal correlation diagram 
RT”“RT 祖 S4” 以 新 增 关 系 的 节点 为 异常 点 ， 以 消失 关系 的 图 5(a) 可 知 ，BAS-TE 算法 生成 的 因果 关系 网 络 产生 

上 游 节 点 为 受 影响 点 ， 二 者 交集 同样 视 为 异常 点 。 了 环 状 链 路 。 从 定位 异常 节点 的 角度 来 看 ， 本 文 算法 生成 的 
本 次 以 因果 关系 的 增加 与 消失 (框架 差异 ) 作 为 异常 的 传播 路 。 无 回路 因果 网 络 更 有 利于 揭示 ICS 物理 过 程 数据 之 间 的 因果 
径 new_Track， 统 计 结 果 如 表 3 所 示 。 生 成 的 新 型 异常 路 径 。 关系 ， 并 根据 信息 的 流向 进行 溯源 。 当 系统 的 物理 过 程 数 据 
与 MFM-SDG 算法 0 对 反应 缸 异常 分 析 得 到 的 路 径 “RF 一 出 现 异 常 时 ， 本 文 算法 能 够 通过 单 向 无 回路 的 因果 网 络 追 漳 
RTRP” 中 所 含 节点 一 致 ,但 方向 相反 。 这 是 由 于 本 算法 考 ”异常 源 节 点 ， 而 BAS-TE 算法 的 结果 中 存在 类 似 “Stream4 一 
上 处 信 息 的 “流动 ”方向 ， 通 常 下 游 节 点 具有 更 高 的 信息 糯 ， level 说 Stream10 阅 Stream4 的 回路 致使 其 溯源 陷入 死 循环 。 
而 信息 炉 较 高 的 节点 多 为 工艺 流程 顺序 中 的 上 游 节 点 。 因 此 ”3.2 准确 性 分 析 
将 路 径 倒置 后 , 两 算法 溯源 结果 相同 , 再 次 证 实 MITE-CM 对 文献 [20] 将 其 实验 结果 与 工艺 流程 进行 了 对 比 ， 而 本 算 
因果 关系 异常 敏感 ， 算 法 准确 度 较 高 。 由 于 MFM-SDG 算法 法 则 从 信息 粮 的 角度 挖掘 变量 之 间 的 因果 控制 关系 ， 因 此 文 
将 多 个 节点 (MVI~MVO) 设 为 初始 异常 ， 而 Kaspersky 此 次 攻 本 将 实验 结果 与 各 器 件 间 的 实际 因果 逻辑 进行 对 比 ， 分 析 算 
击 测试 的 数据 中 仅 将 D 进 料 阀 节 点 (M7) 设 为 异常 ， 因 此 本 ”法 结果 真实 性 。 本 文 将 文献 [11] 的 实验 节点 Stream 4、Stream 
算法 所 得 故障 路 径 的 逆序 集合 包含 于 MEFM-SDG 算法 异常 路 。 10、Stream 11 和 level 作为 数据 集 A， 文 献 [20] 的 实验 节点 
径 集 合 。 Stream 6、 Stream §、 Stream 10、 Stream 11、 Valve 1 和 Valve 9 


录用 定稿 


作为 数据 集 B, 其 
各 算法 在 两 数据 集合 上 的 因果 关系 网 络 如 图 


于 实际 


文献 [20] 将 算法 所 得 结果 的 ; 


忆 果 关系 ， 


灾 因 


文献 [11] 中 的 对 比方 式 ， 


张 仁 


试 ， 等 : 


果 邮 辑 分 别 如 图 6(a) 和 图 7(a) 所 示 。 


6、7 所 示 。 相 对 


(e) 本 文 算法 


图 6 基 


于 数据 集 A 的 结果 对 比 


A/ 


虚线 为 算法 求 得 的 间接 因果 关系 。 为 便于 


基于 最 大 信息 传递 蚁 的 ICS 因果 关系 建 模 


ChinaXiv 合 作 期 刊 
第 38 者 第 3 其 
性 ， 即 


村 
5 


G3) 


仅 讨 论 实 线 所 代表 的 


过 


图 


Fig.6 Results comparison diagram based on dataset A 


(e) 本 文 算法 


图 7 基 


于 数据 集 B 的 结果 对 比 


图 


Fig.7 Results comparison diagram based on dataset B 


住 确 率 (accuracy) 视 为 其 真实 


其 中 , 4 表示 准确 率 ; c 表示 与 实际 因果 逻辑 中 相同 的 边 数 ; 
s 表示 全 部 可 能 的 边 数 。 

本 文 根 据 该 真实 性 评判 标准 得 到 各 项 分 类 衡量 指标 ， 如 
表 5 所 示 ， 本 文 算法 在 准确 率 上 明显 优 于 BAS-TE 算法 [11， 
略 低 于 TE-CMI 算法 Po0， 整 体 水 平 较 好 。 本 文 算法 得 出 的 因 
果 关 系 根据 信息 流向 确定 ， 而 MIC-GA 算法 四则 依据 局 部 最 
优 解 确定 因果 方向 ， 缺 乏 信 息 炉 依据 ， 淮 确 率 低 ， 可 靠 性 相 
对 较 差 。 


表 5 各 项 分 类 衡量 指标 对 比 


Tab.5 Comparison of various classification measures 


算法 准确 率 ”召回 率 ” 精确 率 Fl 数据 
BAS-TE 0.4167 0.6000 0.3750 0.4615 A 
MIC-GA 0.3000 ”0.2000 0.2000 0.2000 A 
TE-CMI 0.7500 0.6000 0.7500 ”0.6667 A 
本 算法 0.8333 0.8000 0.8000 0.8000 A 
BAS-TE 0.7333 0.7500 ”0.5000 ”0.6000 B 
MIC-GA 0.5333 0.1250 ”0.1250 -0.1250 B 
TE-CMI 0.9333 0.7500 1.0000 0.8571 B 
本 算法 0.8333 0.6250 0.7143 0.6667 B 


3.3 稳定 性 分 析 

本 算法 通过 预 设 预测 序列 长 度 /en 减少 计算 量 ， 却 也 
来 了 一 定 程度 的 不 稳定 性 。 多 次 实验 表明 ， 预 设 长 度 le 
合 入 序列 对、 了 的 长 度 工 的 比值 影响 算法 结果 的 稳定 性 。 
此 ， 本 文 设计 了 稳定 性 指标 5 以 反映 算法 结果 的 稳定 性 ， 其 
计算 公式 为 


3S 
了 画 Jr 旭 


MAX 


S-L 工 只 
E 


(4) 


x100% 


式 (4) 中 ,5 为 稳定 性 比值 ;sx 为 第 i 次 结果 与 第 一 次 结 
果 中 的 不 同 边 数 ， 即 变化 边 数 ，M 为 重复 实验 的 次 数 ; 五 为 
网 络 中 的 单 向 有 效 边 数 ， 即 mie i,j> 胡 的 总 数 。 

当 本 算法 的 lem/L 比值 分 别 近 似 为 0.5、0.75、0.8、1 时 ， 
在 不 同 维度 (参与 计算 的 节点 数 ) 的 数据 集 下 的 稳定 性 折线 图 
如 图 8 所 示 ， 测 试 数据 为 前 3 万 条 数据 ， 步 长 为 60(L=1: 60: 
30000)。 


稳定 性 ( 焙 


-©-len/L~s1 


6 12 24 36 48 54 
维 数 
图 8 不 同 lemL 取 值 的 稳定 性 折线 图 
Fig.8 The stability line graph of different len/L values 

随 着 lem/L 的 增 大 ， 算 法 稳定 性 趋 于 恒定 。 但 由 于 6 维 
数据 的 有 效 边 较 少 ， 稳 定性 偶尔 较 差 。 由 于 MIC-GA 算法 中 
的 同样 是 以 MIC 参数 为 基础 构造 因果 网 络 , 本 文选 取 该 比值 
的 最 低 限度 (len/L = 0.5) 与 MIC-GA 算法 进行 稳定 性 对 比 
(MIC 阔 值 均 设置 为 万 =0.D)， 结 果 如 图 9 所 示 。 测 试 数据 为 
全 部 12 万 条 数据 ， 步 长 为 60(L = 1: 60: 120000)。 
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图 9 算法 稳定 性 对 比 
Fig.9 Algorithm stability comparison 

MIC-GA 算法 结果 在 维 数 较 低 时 稳定 性 极 高 ， 但 当 数 据 
E 度 增 大 后 ， 其 稳定 性 大 幅 降 低 ， 后 逐渐 回升 。 由 于 维 数 为 
6 时 的 有 效 边 很 少 ( 仅 3 条 边 )， 本 算法 平均 0.8 的 变化 边 数 占 
有 效 边 比重 相对 较 大 。 但 随 着 维 数 的 增加 ， 算 法 稳定 性 增强 
日 在 24 维 以 后 均 高 于 对 比 算法 ， 总 体 稳 定性 更 好 。 


4 ”结束 语 


考虑 到 ICS 物理 过 程 数 据 的 非 线性 以 及 其 中 包含 的 大 量 
噪声 数据 等 因素 ， 本 文 提出 了 基于 最 大 信息 传递 粹 的 因果 关 
系 建 模 算法 MITE-CM。 算 法 利用 MIC 检测 系统 时 序 趋势 之 
间 的 相关 性 强 弱 ， 构 造 接 近 于 理论 逻辑 的 初始 网 络 结构 ， 
结合 传递 粹 TE 判定 网 络 间 的 信息 流动 方向 形成 因果 关系 网 
络 。 实 验 结 果 表 明 ， 本 文 算 法 可 敏锐 的 捕捉 到 ICS 物理 过 程 
数据 中 的 异常 因果 关系 ， 其 结果 的 准确 率 比 BAS-TE 算法 结 
果 高 出 35.74%， 具 有 较 好 的 真实 性 ; 在 24 维 及 以 上 的 高 维 
数据 中 ,算法 所 得 模型 的 稳定 性 均 高 于 相同 数据 集 下 的 MIC- 
GA 算法 。 但 本 文 算法 整体 的 计算 复杂 度 较 高 ， 后 期 工作 将 
主要 针对 MIC 的 算法 进行 优化 ， 以 提高 算法 整体 计算 效率 。 
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